TECHNICAL REPORT ON LEE SUBMISSION: SOUND EVENT DETECTION USING CONFORMER AND ATST FRAMEWORK FOR DCASE CHALLENGE 2024 TASK 4 - main-custard

TECHNICAL REPORT ON LEE SUBMISSION: SOUND EVENT DETECTION USING CONFORMER AND ATST FRAMEWORK FOR DCASE CHALLENGE 2024 TASK 4

ベースラインに加えて

事前学習済みモデルの種類が多い?

Conformerなどが増えている

畳み込み層で局所を,アテンションで全体の特徴を捉えるという根幹の発想は同じ

少し構造が複雑に見えた

? 実際,同じ学習手法だと精度はどうなるのだろう?